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摘 要 : D-S 证 据 理 论 是 一 种 有 效 处 理 不 确定 信息 的 方法 ， 被 广泛 应 用 于 各 领域 中 ， 而 D-S 合成 方法 作用 的 对 象 是 
基本 概率 指派 (basic probability assign,BPA)， 如 何 生成 BPA 仍 是 D-S 理论 应 用 中 重要 且 有 待 解决 的 首要 步骤 。 针 对 
生成 BPA 提出 一 种 基于 核 密度 估计 KDE (kernel density estimation) 的 BPA 生成 方法 : 训练 数据 用 于 构建 基于 最 优 
化 窗 宽 的 核 密度 估计 的 数据 属性 模型 ; 然后 利用 训练 数据 的 核 密度 模型 计算 测试 数据 的 密度 一 距离 一 分 布 值 
Tri- Dldensity-distance-distribution), ibat A9 A7 BG Tri-D 值 获取 测试 数据 对 应 的 BPA; 最 后 D-S 合成 BPA 
得 到 最 终 判 断 ， 通 过 分 类 准确 率 来 判断 BPA 生成 方法 的 有 效 性 。 实 验 通 过 在 UCI 数据 集 上 的 与 其 他 方法 的 分 类 准 
确 率 对 比 验 证 了 提出 方法 的 有 效 性 
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LO Abstract: D-S evidence theory is a method that processes uncertain information effectively and is widely used in 
information fusion. However, the determination of BPA (Basic Probability Assign) or the action object of D-S fusion method 
©) is still an open problem in process of D-S theory application. This paper proposed a BPA determination method based on 
kernel density estimation(kde) . The method uses training data to construct a data attribute model with optimized bandwidth 
based on the optimized kernel density estimation; then calculate the density-distance-distribution (Tri-D) value of test data 


ph by using the kernel density model of training data. The next step is obtaining BPA of test data by using the nested method to 
assign Tri-D. Finally, fusing BPA by D-S method to get the final result, and judging the validity of the BPA generation 
method by the classification accuracy rate. An illustrative case regarding the classification accuracy compared with other 


methods on UCI data sets shows the effectiveness of the method. 
Key words: basic probability assign(BPA); kernel density estimation; Tri-D; bandwidth 


叶 斯 与 最 近邻 均值 分 类 进行 加 权 结 合 提出 了 WFDSF 算法 ; 
文献 [16] 提 出 了 一 种 利用 训练 数据 核心 样 例 获得 BPA 的 方法 ; 


0 引言 


ü 


D-S 证 据 理 论 是 由 Dempster tH, 并 由 Shafer P RRR ”文献 [17] 提 出 了 基于 分 类 器 含混 矩阵 的 方法 ， 此外， 还 有 妇 
种 有 效 处 理 不 确定 信息 和 组 合 多 元 信息 的 方法 。 它 和 经 TRAME BPA [7r 3515819), 
的 贝 叶 斯 理论 是 数据 融合 中 两 个 主流 框架 ， 但 相 比 于 贝 叶 斯 通过 对 以 上 文献 方法 的 学 习 可 以 发 现 ，BPA 的 生成 本 质 
理论 ，D-S 理论 (有 将 概率 同时 分 配给 单子 集 和 复合 子 集 的 上 是 各 可 能 事件 发 生 概率 的 确定 ， 而 核 密度 估计 正 是 一 种 完 
优点 。D-S 理论 在 数据 融合 四、 综合 评估 人 久 、 分 类 [1、 进 全 基于 数据 本 身 来 进行 概率 密度 估计 的 有 效 非 参数 估计 方法 ， 


化 
奸 弈 论 扩 9 等 诸多 领域 实现 了 很 好 地 应 用 。 在 应 用 D-S 框架 ”所 以 本 文 提出 一 种 基于 核 密 度 估 计 的 BPA 生成 方法 , 首先 利 
的 过 程 中 ，BPA 的 生成 是 关键 又 核心 的 第 一 步 ， 会 对 最 终 的 用 训练 数据 构建 最 优化 窗 宽 〈 以 下 简称 AO 的 核 密度 估计 模 
结果 产生 很 大 的 影响 ,但 如 何 生 成 BPA 到 现在 依旧 没有 通用 型 ， 计算 测试 数据 各 属性 在 各 模型 中 核 密度 取 值 ， 并 进一步 
的 解决 办 法 ， 不 少 学 者 就 此 进行 了 研究 ， 并 提出 了 不 同 的 解 计算 Tri-D, JEÉXERCE XA) BODIE R BPA; D-S 合成 BPA 得 
决 方法 。 较 早 的 Yager00 引 进 了 与 D-S 信念 结构 相关 的 一 整 。” 到 判定 结果 ， 结 合 UCI 数据 集 进行 本 文 方法 有 效 性 的 验证 。 
类 模糊 测度 ， 并 讨论 了 模糊 测度 的 炉 ， 东 去 等 人 0”7 呈 提 出 了 
基于 广义 模糊 数 生成 BPA 的 方法 ; Liu 等 人 [5 将 模糊 朴素 贝 


m) 
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1 ”相关 工作 
11 D-S 证 据 理 论 

下 面 对 D-S 证 据 理论 的 基本 概念 进行 介绍 。 

a) 辨识 框架 (frame of discernment). 

D-S 理论 中 ， 将 包含 所 有 可 能 发 生 假 设 的 集合 
O={H,, H3, H.) 定义 为 辨识 框架 ， 其 中 的 假设 是 穷尽 且 独 立 
BH. emmmSO-elUn).—(,)UH).(0) ， 共 22 个 假 
设 集合 。 


率 
值 


b) 基本 概率 指派 (basic probability assign,BPA). 
WE o 到 [0,1] 的 映射 m 满足 式 (1)， 则 称 m 为 基本 概 


指派 (下 文 简称 BPA) ， 又 称 mass 函数 或 证 据 ， 其 中 om 
非 零 的 子 集 称 为 焦 元 。 
m(A) -1 
LN " 
m(g) -0 
m 值 表示 对 子 集 的 支持 程度 , 值 越 大 表示 支持 程度 越 大 。 
c) 组 合 规则 。 
对 于 两 条 证 据 ,D-S 组 合 规则 如 下 , 其 中 Bill Cj 为 焦 元 ， 
K 称 为 冲突 系数 。 
m(A) - m,(B;)m,(C;),(A * 9, A c 8) 
| P Í 2) 
m(g) -0 
k= 2 mG)m(C;) 6) 


BNCj=9 


1.2 Pignistic 概率 1 


PE 


f£ D-S 组 合 完 BPA 之 后 , 取 最 大 Pignistic 概率 值 为 最 终 
吉 果 ， 计 算 公式 如 式 (4) 所 示 ， 其 中 人 | 表示 集合 X 的 基 


数 。 


的 
为 


BPA(A,B,C 就 是 @ 中 的 假设 , 也 就 是 数据 可 能 的 类 


以 
生 


yore (4) 

介绍 完 D-S 证 据 理论 基本 内 容 , 对 D-S 应 用 与 本 文 工 作 
关系 进行 简单 说 明 。 本 文 工 作 是 将 有 不 同 特征 的 数据 转换 
E 如 m(A)=0.3,m(B)=0.6,m(C)=0.1 且 满 足 式 (1) 的 
别 或 标签 ) 
ft D-S 按 式 (3)(4) 进 行 组 合 , 得 到 最 终 一 条 BPA, 所 以 BPA 
成 是 D-S 应 用 过 程 必 不 可 少 的 一 步 。 


4 


1.3 核 密度 估计 (KDE) 


" 
与 
特 
提 
统 
变量 


=| 


bis FM, OSA 


求解 给 定 样本 集合 分 布 密度 的 方法 包括 参数 估计 和 非 参 
估计 两 种 类 型 。 核 密度 估计 (或 称 Parzen 窗 法 ) 属 于 后 者 。 
参数 估计 中 需要 假定 所 估计 数据 在 各 个 可 能 类 别 中 都 服从 
定 分 布 的 “不 准确 ”前 提 相 比 , FH Rosenblatt221 和 ParzenD3] 
出 的 核 密 度 估 计 从 数据 本 身 出 发 研究 数据 的 分 布 特征 ， 在 
计 和 各 应 用 领域 均 受 到 了 高 度 重 视 。 对 于 独立 同 分 布 随机 
量 xj,xz,.…,xn, 其 真实 服从 的 概率 密度 函数 fx) 的 核 密度 估计 
函数 表示 如 下 : 


(5) 


PD RES. 
RSA HOER, KW K.G0- KGu h/h, W5) 


万 CD= TAE 


*) xeR 


| 以 表示 为 


^ i n 
AOKO -x)xeR 


从 式 (6) 可 以 看 出 ，f 的 密度 估计 不仅 与 给 定 的 样本 集 


了 关 ， 还 与 核 函 数 的 选择 与 带宽 参数 的 选择 有 关 。 常 见 的 


核 


核 函 
述 。 本 文 主要 考虑 
光滑 程度 。 图 1 是 一 


度 估 计 的 基本 概率 指派 生成 方法 


函数 包括 高 斯 核 函 
数 (uniform) 和 


数 (normal)、 三 角 核 函数 (triangle)、 
Epanechnikov 核 函 数 等 ,本 文 在 此 不 再 更 
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均匀 


宽 h 因素 ,，h 的 取 值 决定 了 密度 


线 的 


同时 的 核 密度 估计 曲线 。 


Lu 


增 


选择 合适 的 h 非常 重要 ， 


出 现 了 


有 随机 生成 的 服从 正 态 分 布 的 数据 在 不 


Fig. 1 
由 图 1 


大 到 


2 时 ， 


图 1 正 态 分 布 数据 在 不 同 h 下 的 kde 曲线 
KDE curves of random data with different h 


"TEUER HI 25 h WER, 


线 过 于 陡峭 波折 ， 


过 拟 合 现 象 ， 而 随 着 h 的 增 大 ， 
曲线 就 过 于 平滑 , 使 数据 的 特征 


线 逐 渐 平 缓 ， 当 有 h 
Meus. zx b, 


详 见 2.1 节 。 


基于 核 密度 估计 的 基本 概率 指派 生成 方法 


2 


BPA # 
此 基础 上 
以 从 不 同 的 角度 反映 数 : 


采用 最 优化 的 方法 来 选择 h, 


女 


位 进行 h 的 优化 和 kde 属性 


是 基于 属性 模型 


©= 


2.1 


(eie; 


4 的 《需要 说 明 的 是 ， 将 一 维 属性 
于 个 类 别 的 ”个 kde 子 曲线 统称 为 一 个 属性 模型 ) 。 


下 面 将 介绍 本 文 的 方法 ， 首 先 给 出 以 下 假设 : 所 有 可 


成 的 基本 要 求 是 要 满足 后 续 组 合 过 程 的 使 用 ,在 
要 尽 可 能 多 地 提取 和 利用 数据 信息 
居 的 特征 ， 对 此 本 文 以 属性 为 基本 单 


， 不 同 的 属性 可 


模型 的 构建 , 后 续 的 BPA 分 配 也 
下 得 到 的 关 


的 假设 或 最 终 所 有 的 类 别 5 
d, HEROE n 条 数据 , 每 条 数据 有 pp REX 
表示 测试 数据 。 
基于 最 优化 窗 宽 的 属性 kde 模型 


现 有 窗 宽 的 优化 方法 主要 是 


v 个 , 即 辨识 框架 


基于 积分 均 方 误差 


MISE(mean integrated squared erroD 的 优化 PC4,MISE 的 定义 如 
F: 


TN 
2 


的 表示 式 ， 


上 式 中 分 解 后 的 第 


MISE) = Ej G 09 - f CO? dd] - 


JIE- FGOP dx Var f Gods 


项 表示 期 望 值 与 真实 值 间 的 偏差 ， 


二 项 表示 估计 值 的 方差 .， 对 上 式 求解 可 以 得 到 偏差 及 方差 


求 最 小 值 等 一 系列 过 程 最 终 推导 出 最 


优 窗 宽 h 的 表达 式 如 下 (详细 公式 推导 见 文献 [24]): 


数据 的 p 4T v 列 的 最 优化 


o 入 分 别 代表 样 
计算 出 训 


P 


h-( 


49 Y 410590 n9? 
3n 


本 的 标准 差 和 数 
练 数据 属性 j 对 应 类 别 


(7) 


。 根 据 式 (7) 可 以 
的 最 优 窗 宽 ,最 终 得 到 训 


窗 宽 矩阵 H*。 


用 训练 数据 构建 属性 核 密度 估计 模型 ， 具 体操 作为 : 
对 训练 数据 属性 j 按 不 同类 别 进行 划分 ， 


不 同属 性 下 不 同类 
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别 的 优化 窗 宽 h 在 正中 已 经 相应 求 出 ， 按 式 (6) 进 行 核 密度 2.3 基本 概率 指派 生成 
估计 , 最 终 一 维 属性 下 共 包 含 v 个子 KDE 模型 ,按照 之 前 多 


B 每 个 测试 数据 oc 的 属性 j 在 相应 属性 模型 下 可 以 得 到 vy 
2 章 开 始 的 说 明 ， 本 文 称 p 维 属性 共 对 应 p 个 模型 。 个 Tri-D 值 , MA p 个 属性 共 可 以 得 到 p 4T v 列 的 Tri-D (58 


2.2 密度 一 距离 一 分 布 值 (Tri-D) 阵 。 以 六 的 任 一 维 属 性 7 为 例 说 明 本 文 的 嵌 套 式 C9 的 分 配方 
基于 训练 数据 的 kde 属性 模型 构建 已 完成 ， 测 试 数据 的 。 ”法 :属性 j 在 对 应 模型 中 可 以 得 到 vy 个 Tri-D 值 组 成 向 量 TD 六 
属性 在 各 属性 模型 下 的 密度 取 值 可 随 之 得 出 ， 数 据 在 某 类 别 X) Tri-Dg 按 降序 排序 ,得 到 , 设 相 应 的 Tri-D, 类 别 向 量 为 Cd， 
下 的 密度 值 的 大 小 与 数据 属于 该 类 别 有 正 相关 的 关系 ， 但 在 。” 则 本 文 分 配方 式 如 下 : 


类 间距 离 较 近 或 密度 差距 较 明显 的 情况 下 ， 仅 根据 密度 值 大 miC,[1) = Tri D, t] 
小 来 判断 所 属 类 别 可 能 会 导致 较 多 错误 的 发 生 。 在 区 间 [4,5] mCi, Cul2D -Tri - D, 21 
和 [5.2,5.6] 分 别 随机 生成 10 个 数据 记 为 A 类 和 4 个 数据 记 为 (9) 
B 类 ， 通 过 核 密度 估计 得 到 它们 的 kde 曲线 如 图 2 所 示 。 mC C2 Gao) =Tri- Dy Dy 
和 一 二 一 一 十 一 一 下 一 通过 这 种 分 配方 法 可 以 同时 得 到 单 焦 元 BPA 和 多 焦 元 
- - S 类 数据 复合 BPA。 为 满足 式 (1) 的 要 求 ,需要 对 分 配 得 到 的 各 式 进 行 
| t | 归 一 化 得 到 所 需 的 BPA。 最 终 ，xi 的 每 一 维 属 性 都 可 以 得 到 
F X 13 一 条 BPA, p 维 属性 得 到 pp 条 BPA, 通 过 组 合 得 到 最 终 BPA。 
PI XA 24 ”算法 流程 
| f ? VN 本 文 算法 的 流程 给 出 如 图 3 所 示 。 下 面 对 算 法 的 相关 名 
os} ; 4 A 1 节 进行 介绍 : 将 数据 分 为 用 来 学 习 和 构建 属性 模型 的 训练 数 
oa} » A s | 据 和 评估 方法 有 效 性 的 测试 数据 ， 首 先 利用 训练 数据 构建 
| Fam; x s kde 模型 ， 将 每 一 维 属性 都 视 为 一 个 信息 来 源 : 对 于 每 一 维 
La RENE. S 9 属性 j 中 的 不 同类 别 i, 通过 3.1 中 式 (7) 计 算得 到 相应 的 窗帘 
i a B8 d B é P 有 有 5 jj， 最 终 得 到 最 优 窗 宽 和 矩阵 H*， 对 各 属性 对 应 的 各 类 别 数 
图 2 A,B 两 类 核 密 度 曲线 据 按 照相 应 的 优化 窗 宽 进 行 核 密度 估计 (本 文 使 用 高 斯 核 函 
Fig.2 KDE curves of A and B classes 数 ， 见 4.2 节 )， 得 到 属性 j 的 kde 模型 。 对 于 测试 数据 : JR 
图 2 可 以 发 现 类 , 别 A 与 B 的 密度 曲线 在 x MERR 。 据 构建 的 训练 数据 属性 模型 ， 按 式 (8) 计 算 Tri-D 值 ， 最 终 任 
分 较 大 ， 可 以 想象 随 着 A,B 类 间距 离 的 缩小 (在 另 一 方 不 动 ”一 条 测试 数据 x 都 对 应 得 到 值 矩阵 -Pr ， 依 照 式 (9) 进 行 


的 前 提 下 ，A 曲线 往 右 移动 或 者 B 曲线 往 左 移动 ) ， 这 将 导 ”分 配 获得 p 条 BPA, D-S 组 合 得 到 最 终 BPA, 取 最 大 Pignistic 
致 两 曲线 重 着 部 分 越 来 越 大 ， 这 样 一 来 仅 靠 密度 值 已 经 无 法 ，” 值 对 应 假设 为 最 后 的 结果 。 
正确 区 分 点 的 类 别 。 区 
在 传统 的 分 类 聚 类 算法 中 ,KNN 通过 距离 选择 样 例 的 天 {aa H hn 
近邻 进行 分 类 ，K-means 算法 通过 样 例 与 中 心 点 间 的 距离 来 mb P8 ms 
进行 聚 类 ， 所 以 距离 是 类 别 判 断 中 非常 重要 的 因素 ， 另 外 ， ". Ww n am 
同一 类 别 的 点 之 间 的 距离 分 布 应 该 相似 度 更 高 ， 所 以 结合 密 Neu = n 
度 值 、 距 离 以 及 分 布 特征 ， 本 文 提 出 了 Tri-D 值 的 概念 ， 测 l r3 BEEF 3 
WA xi 的 属性 j 在 相应 j 属 性 模型 中 关于 类 别 i 的 Tri-D 值 定 TES 7 al E^ = 
义 如 下 ， 由 此 对 于 有 个 类 别 的 数据 来 说 ， 在 一 维 属性 下 共 mE (Eie me 
可 以 得 到 v 个 Tri-D fü: L Tarep Haese H ha MDE | po ma | 
Tri- Dy = fix) (dy d; -1 (8) = a | mmm md l 
abd d L— 类 别 cv H hi | 一， 最 终 BpA ] 
其 中 : f;0vD 代表 点 xi 的 属性 j 在 对 应 第 j 维 属性 模型 中 i 类 图 3 ”本文 算法 流程 
线 上 的 密度 取 值 ， di 表示 xi 属性 j 的 值 到 训练 数据 属性 j Fig.3 Procedures of proposed method 
的 第 i 类 数据 中 心 点 的 距离 ， 中 心 点 矩阵 Cen. 由 算法 


3 ”实验 及 结果 分 析 
k-means++P5 对 每 维 属性 的 各 类 别 聚 类 得 到 ， 几 代表 训练 数 本 节 共 有 三 组 实验 在 UCI 数据 集 上 的 实验 ，3.1 节 对 Iris 


据 的 第 / 维 属 性 下 第 i 类 数据 中 任意 两 点 之 间距 离 的 均值 。 。 ”数据 集 的 数据 进行 实验 流程 的 示例 说 明 ; 3.2 节 确定 了 核 函 
NN pow 数 的 选择 ， 并 对 本 文 窗 宽 的 优化 效果 进行 了 证 明 ; 33 308 
对 上 述 定义 进行 简单 分 析 ， 首 先 第 一 部 分 如 Cs)， 其 取 。 过 在 UC 数据 集 上 的 分 类 准确 率 说 明了 本 文 方法 的 有 效 性 。 
值 越 大 说 明 在 属性 / 的 条 件 下 x 属于 类 别 i 的 可 能 性 越 大 ; 本 文 实验 中 用 到 的 UCI 数 据 集 的 名 称 .实例 数 .类别 数 、 
比 次 ， 第 二 部 分 由 两 个 距离 组 成 ， 第 一 个 距离 是 测试 点 到 训 — 属性 数 以 及 是 否 有 缺失 值 等 信息 由 表 5 给 出 。 对 于 缺失 值 的 
练 数据 类 别 中 心 点 的 距离 ， 第 二 个 距离 选择 了 训练 数据 类 别 “情况 在 应 用 D-S 证 据 理 论 的 过 程 中 可 以 直接 忽略 无 须 做 处 理 ， 
; 中 任意 两 点 之 间 的 平均 距离 ， 通 过 前 面 的 两 个 距离 的 比较 。 这 也 是 D-S 理论 的 优点 之 一 。 
E HN = 31 本 文 方法 实验 示例 
ER AREE E ea a 本 节 是 通过 对 Iris 一 测试 数据 的 分 类 过 程 来 对 本 文 算法 
越 小 ， 本 文 就 认为 x 与 该 类 别 所 有 点 的 距离 分 布 越 相似 。 所 ”流程 进行 说 明 。Iris 数据 集 是 分 类 基准 数据 集 ， 共 有 三 个 类 
以 综合 以 上 分 析 , Tri - Ds 值 越 大 , 在 属性 j 的 条 件 下 x 属于 类 p) Setosa(S). Versicolor(C). 、Virginica(V) 。 每 条 数据 包含 
别 i 的 可 能 性 越 大 ; 反之 ， 则 越 小 。 SL,SW,PL,PW 四 维 属 性 ， 每 个 类 别 均 有 50 个 样 例 ， 共 150 


DE 


> H 


ib) 


例 。 本 示例 实验 取 809075 VI Zi 
例 ,其 各 属性 取 值 如 下 : SL=6.1cm, SW=2.9cm, PL=4.7cm， 
PW-1.4cm. 
利用 训练 数据 构建 属性 kde 模型 : ARH 
练 数 据 各 属性 的 最 优 窗 宽 ， 得 到 各 属性 中 不 同类 别 的 最 优 窗 
宽 ， 如 表 1 所 示 。 图 4~7 展示 了 通过 核 密度 估计 构造 的 各 属 
性 模型 及 模型 中 不 同类 别 的 核 密度 曲线 。 其 次 ， 计 算 测 试 数 
据 的 Tri-D 值 : 利用 K-means++[25] 
不 同类 别 的 中 心 点 ， 如 表 2 所 示 ， 按 照 Tri-D 的 定义 计算 得 
| Tri-D 矩阵 ， 如 表 3 所 示 ; 生成 测试 数据 的 BPA: Xxx 
套 式 分 配方 法 得 四 维 属性 对 应 的 共计 四 条 BPA, 如 表 4 所 示 ， 
利用 式 (3) 计 算 任意 两 BPA 之 间 的 冲突 系数 k， 结 果 为 


R A, Fi 基于 核 密 度 估计 的 基本 概率 指派 生成 方法 


虽 ， 给 定 标签 为 C 的 测 


2=k13=k14=k23=k24=k34=0, BPA 之 间 不 存在 冲突 问题 ; 


判定 正确 。 


E: 组 合 得 最 终 BPA 为 m(S)=m(V)=0,m(C)=1， 所 以 
I 试 数据 属于 “最 被 支持 ”的 C 类 ， 与 真实 类 别 一 致 ， 
— Setosa 
=> Versicolor | 
=~ Virginica 


5 6 7 8 9 
4 属性 SL 模型 下 三 个 类 别 曲 线 
Fig.4 Kde curves of three classes for attribute SL 


a 


DS 


201905.00025v1 


f(SW) 


chinaXiv 


— Setosa 
=> Versicolor | | 
~ Virginica 


2 25 3 3.5 4 4.5 5 5.5 


图 5 属性 SW 模型 下 三 个 类 别 曲线 
Fig.5 Kde curves of three classes for attribute SW 


HPW) 


T 
— Setosa 

— Versicolor 
~~ Virginica | | 


1 2 3 4 5 6 7 8 
图 6 属性 PL 模型 下 三 个 类 别 曲线 
Fig.6 Kde curves of three classes for attribute PL 


聚 类 得 到 训练 数据 各 属性 
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图 7 属性 PW 模型 下 三 个 类 别 曲线 
Fig.7 Kde curves of three classes for attribute PW 
表 1 各 属性 对 应 类 别 的 窗 宽 
Table 1 Bandwidth for all classes of each attribute 
属性 S [o V 
SL 0.18 0.28 0.33 
SW 0.21 0.17 0.17 
PL 0.09 0.26 0.28 
PW 0.05 0.11 0.14 
de 2 各 属性 下 类 别 的 中 心 点 
Table 2 Center for all classes of each attribute 
属性 S C V 
SL 5.005 5.988 6.590 
SW 3.420 2.778 2.980 
PL 1.447 4.265 5.523 
PW 0.243 1.335 2.013 
表 3  Tri-D fü 
Table 3  Tri-D values 
属性 S C V 
SL 0.014 0.692 0.305 
SW 0.226 1.555 0.96 
PL 0 2.692 0.128 
PW 0 2.271 0.078 
de 4 测试 样 例 的 四 条 BPA 
Table 4 Four bpas of test sample 
属性 BPA 
SW m((C1)-0.684, m((C,V31)-0.302, m((C, V,S))-0.014 
SL m((Cj)-0.567, m((C,Vj)-0.351, m({C,V,S})=0.082 
PW m((Cj)-0.955, m((C,Vj)-0.045, m({C,V,S})=0 
PL m((Cj)-0.967, m({C,V })=0.033, m({C,V,S})=0 


i 


X 8 给 出 。 总 体 效 果 来 看 使 用 高 斯 核 函数 Cnormal) 的 效果 
是 最 好 的 ， 就 数据 集 分 别 看 ， 在 Iris、Heart、Australian 三 个 
数据 集 上 使 用 不 同 核 函 数 的 效果 相当 ， 在 Zoo 和 Sonar 数据 
集 上 略 有 差距 。 接 着 在 高 斯 核 函 数 的 条 件 下 验证 不 同窗 宽 h 
对 准确 率 的 影响 ， 结 果 由 图 9 给 出 。 可 以 看 出 采用 最 优化 窗 
宽 的 准确 率 明 显 比 使 用 默认 窗 宽 要 高 ， 这 是 因为 优化 的 窗 宽 


核 函数 和 窗 宽 选 择 的 实验 
kde 中 有 两 个 重要 因素 窗 宽 h 和 核 函数 ， 每 个 因素 都 会 


对 结果 产生 影响 ， 本 节 给 出 这 两 个 因素 变化 时 本 文 方法 在 
UCI 数据 集 上 5 折 交 叉 验 证 的 准确 率 对 比 。 


首先 是 对 采用 不 同 核 函数 时 UCI 数 据 集 的 准确 率 对 比 


是 根据 不 同属 性 及 不 同类 别 的 数据 特征 进行 具体 求解 的 ， 所 
以 相 比 所 有 数据 都 用 一 个 窗 宽 来 讲 可 以 更 加 准确 地 反映 数据 
的 特征 ， 进 而 产生 更 高 的 准确 率 。 
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图 8 不 同 核 函数 下 本 文 方法 的 准确 率 对 比 


Fig.8 Accuracy of proposed method under different kernel functions 
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图 9 各 数据 集 使 用 优化 h BRA h HER EG 


Fig.9 Accuracy of optimized h and default h on data sets 
3.8 UCI 数据 集 上 的 分 类 实验 

本 实验 通过 与 七 个 被 大 家 熟知 的 分 类 器 及 另外 三 种 BPA 
生成 的 方法 进行 对 比 实验 说 明 本 文 方法 的 有 效 性 。 由 表 5 可 
以 看 出 ， 所 采用 的 数据 集 在 表 中 给 出 的 样 例 数 、 类 别 数 、 属 
性 及 是 否 有 缺失 值 四 个 方面 都 不 尽 相 同 ， 用 于 实验 可 以 较 全 
看 地 展现 方法 的 有 效 性 。5 折 交 叉 验 证 的 实验 结果 如 表 6 所 
不 。 


四 


表 5 UCI 数 据 集 的 基本 信息 


Table 5 Basic information of five UCI data sets 


数据 集 样 例 数 ”类 别 数 属性 是 否 有 缺失 值 
Iris 150 3 4 无 
Heart 270 2 13 无 
Australian 690 2 14 有 
Zoo 101 7 16 无 
Sonar 208 2 60 E 


de6 数据 集 分 类 正确 率 /% 
Table 6 Classification accuracy of five data sets/% 
分 类 器 BPA 生成 方法 


E 方法 方法 方法 本 文 方 
数据 集 NB IBI REPTreeSVMSVM-RBF MP RBFN 
1?! 2u91 3Us1 ik 


Iris 94.67 94 92 94.67 92.7  93.3392.6795.33 94 94.67 96 


Heart 82.5957.78 70.74 83.70 $82.96 75.1981.85 76.3 75.1 81.5 83.73 
Australian79.56 67.4 80.59 80.29 79.86 82.3282.61 78.41 80.6 $80.01 82.32 

Zoo 93. 94.1 84.22 84.1 72.3 93.1 93.1 90.5 84.1 93.1 94.2 
Sonar 66.28 79.78 70.70 66.32 65.90 66.8666.84 65.5 66.58 65.57 67.5 


Average 83.24 78.61 79.65 81.82 78.74 $82.1683.41 81.21 80.08 82.97 84.75 


通过 表 6 结果 本 文 可 以 看 出 ， 本 文 方法 在 各 个 特征 都 不 
尽 相 同 的 UCI 数 据 集 上 的 分 类 准确 率 整 体 优 于 其 他 几 种 常见 
的 分 类 器 ， 同 时 也 优 于 其 他 几 种 BPA 生成 方法 ， 其 他 几 种 
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BPA 生成 方法 与 分 类 器 相 比 表现 较 平 均 。 本 文 及 对 比 BPA Æ 
成 法 在 Sonar 数据 集 上 的 表现 均 偏 差 ， 就 本 文 方法 初步 考虑 
可 能 是 由 于 特征 较 多 , 在 将 测试 数据 对 应 生成 的 多 条 BPA H 
行 融合 的 过 程 中 融合 结果 出 现 偏差 导致 ， 但 整体 来 说 ， 本 文 
方法 效果 还 是 不 错 ， 说 明 本 文 方法 可 以 有 效 地 由 包含 不 同 特 
征 的 数据 信息 生成 BPA 即 证 据 供 D-S 证 据 理论 可 以 直接 融合 
使 用 。 


4 ”结束 语 


在 D-S 证 据 理 论 应 用 的 过 程 中 ， 基 本 概率 指派 (BPA) 的 
生成 方法 仍然 是 一 个 开放 性 的 问题 ， 本 文 提 出 了 一 种 基于 核 
密度 估计 的 BPA 生成 方法 : 首先 构建 训练 数据 优化 的 核 密度 
届 性 模型 ， 然 后 根据 所 提出 的 Tri-D 的 概念 计算 并 分 配 得 到 
测试 数据 的 BPA, 通过 D-S 组 合 得 出 最 后 的 结果 :本 文 方法 具 
主观 性 弱 ，BPA 之 间 冲 突 小 的 优点 。 实 验 结果 表明 了 所 提 
方法 的 有 效 性 ; 但 在 维 数 较 高 的 数据 集 上 进行 BPA 生成 及 后 
续 应 用 还 存在 一 定 不 足 ， 下 一 步 将 针对 此 方面 考虑 结合 改进 
融合 方法 进行 思考 和 改进 。 
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